機械学習実習 3回課題
教師なし学習 Unsupervised Learning
以下、問題に対して、思考のメモを残す
課題1
(1) 教師あり学習と教師なし学習について以下の問に答えよ
✅a) 教師 MLとは何か?
✅b) 教師あり学習 Supervised Learningと教師なし学習 Unsupervised Learningは何が違うのか,以下の問に答えよ
✅b-1)教師あり学習ができるデータで,教師なし学習はできるか? Yes/No
yes
理由
教師なし学習は、入力データさえあれば実行可能であるため
✅b-2)教師なし学習ができるデータで,教師あり学習はできるか? Yes/No
no
理由
教師あり学習は、入力値のデータと結果であるラベル情報が必要であるが、教師なし学習は
✅b-3)以上を踏まえ,教師あり学習と教師なし学習について説明せよ.
説明
✅c) 教師あり学習 Supervised Learningの手法を2つ挙げよ.
挙げるだけでいいのでは?
2つ
機械学習実習 2回課題で使ったものあげたい
クラス分類
回帰 Regression
とか
✅d) 教師なし学習 Unsupervised Learningの手法を2つ挙げよ.(この問は,第 12 週以降の内容を含む)
2つ
PCA Principal component analysis 主成分分析 、k-meansクラスタリング
✅(2) 3.4.1.1 で用いている cancer データセットを Iris データセットに交換し,PCA Principal component analysis 主成分分析 による解析実行せよ
✅a) 図 3.4 のようなヒストグラムを描き,コマンドと図をレポートに貼り付けよ.
思考
cancerの例を動かして、データ入れ替える
データを可視化して、データを観察
特徴量の数による
iris 4つ
2つの特徴量の関係性を見たい場合
4 * 3 = 12
多い特徴量に対して、今回の手法を使う
花の種類は3つ
✅b) 以下のコマンドでデータの前処理をしましょう.
code:script.py
from sklearn.preprocessing import StandardScaler
scaler =StandardScaler()
scaler.fit(iris_dataset.data)
X_scaled = scaler.transform(iris_dataset.data)
思考
このコマンドの意味は?
✅c) PCA を実行し,コマンドをレポートに貼り付けよ
✅d) PCA の結果を図3−5のように図示し,コマンドと図をレポートに貼り付けよ
拡張課題
時間余ればやる
(e) 可能な人だけ解けば良い.
d)では,第一主成分と第二主成分の散布図を書きました. d)のコマンドを使って,2つの散布図を新たに作成図しましょう.
e-1)元データ(iris_dataset.data)の2軸( sepal length と sepal width)の散布図
e-2)元データ(iris_dataset.data)の2軸( petal length と petal width)の散布図
✅課題2
✅(1)教師なし学習のうち,PCA Principal component analysis 主成分分析 と t-SNE の違いは何かを説明せよ
✅(2) k-meansクラスタリングと凝集型クラスタリングの違いは何かを説明せよ
✅(3) iris データセットに対して,t-SNE を実行せよ.
✅(4) iris データセットに対して,k-meansクラスタリングを実行せよ
その際,図 3-25 に相当する図をレポートに含める事
課題3
✅(1) カテゴリ変数とは何かを説明せよ
説明に際して,教科書の表 4-1 以外の具体的な例を挙げて説明せよ.
✅(2) One-Hotエンコーディング ダミー変数とはなにかを説明せよ.
説明に際しては,
a)ワンホットエンコーディングの具体例及び,
b)なぜワンホットエンコーディング(ダミー変数)が必要なのかを説明せよ.
✅(3) iris のデータをOne-Hotエンコーディング ダミー変数せよ.
課題を簡単にするため,以下のスクリプトを実行した後の iris.df をワンホット エンコーディングせよ.
code:script.py
iris = load_iris()
iris.df = pd.DataFrame(iris.data)
iris.df.columns = iris.feature_names
new_col = iris.target_names iris.target
iris.df“target” = new_col
なお,どの列(項目)がワンホットエンコーディングされた かを明示すること.
(4) 交差検証法 Cross-validationとは何かを説明せよ.
その際,
a)交差検証法 Cross-validationが必要な理由,
b)あるデータの 3-fold cross-validation の行い方
なお,b)については「訓練セット」「テストセット」という用語を用いて説明する事
c) 交差検証法 Cross-validationの欠点(デメリット)について含む事.